元数据管理解决方案
最近我在撰写一篇关于数据治理体系的文章,其中涉及到了元数据管理。在这篇文章中,我详细介绍了元数据的定义、作用以及元数据管理的功能。具体参加文章《数据治理体系之二-元数据管理》然而,我意识到有些人对于为什么需要进行元数据管理以及目前市场上的元数据管理解决方案还存在一些疑问。因此,我想在这里对这两个问题进行进一步解释。
01
—
元数据管理的意义
三、加快获取洞见的速度
02
—
元数据管理解决方案
与其它形式的数据一样,元数据也是有生命周期的,从元数据管理解决方案上来将都应该包含以下内容:
1)元数据创建和采集
2)元数据在一个或者多个存储库中存储
3)元数据集成
4)元数据交付
5)元数据使用
6)元数据控制和管理
因此可以采用不同的架构方式获取,存储,集成,维护元数据,供消费方访问元数据。
一、集中式元数据架构
这种元数据架构由单一的元数据存储库组成,包含不同源的元数据部分,这个架构需要从不同源抽取元数据存储到元数据存储库中。这种架构有它的优缺点
优点:
1)高可用,因为它独立于源系统
2)可以快速检索到元数据,因为存储和查询功能在一起
3)解决数据库结构问题,因为它是采集过来的,不受数据源库的属性影响。
4)在抽取元数据可以转化,补充元数据,保证元数据的完整性
缺点:
1)必须使用复杂的流程保证源头的元数据改变可以快速同步到存储库中。
2)集中存储有一定的存储成本
3)验证和维护自定义代码会对数据源的it人员有要求。
一、分布式元数据架构
分布式元数据架构是指不存储元数据,而是由元数据检索引擎通过实时源系统检索数据来响应用户请求,分布式元数据架构没有持久化的存储库。
优点:
1)元数据总是保持最新且有效,因为他是从其它数据源中直接检索。
2)自动化元数据查询处理的开发可能简单,只需要很少的人工干预
3)无元数据复制和同步的开发工作。
缺点:
1)无法支持用户定义或者手动插入的元数据项,因为没有存储库可以放置这些添加项
2)需要兼容不同数据源,需要通过标准、统一的展示方式来呈现来自不同系统的元数据。
3)查询功能受源数据系统的性能影响
4)元数据的质量完全取决于源系统。
三、混合元数据架构
该架构的方式是部分元数据采用分布式查询,部分采用数据采集的方式集中存储,这样可以弥补两种方案的缺点。即需要考虑用户添加的元数据,重要标准化的元数据,以及来自手工源添加的则集中存储,而不需要额外处理的元数据则实时从源数据库读取。
以上架构未考虑元数据版本变化的需求,如果需要有元数据版本变化的需求,且对元数据管理要求比较高的情况下,采用集中式架构,如果对元数据要求不高,或者无人工修改,不需要投入较大的开发成本,则可以采用分布式架构和混合元数据架构,这两种架构只能实时展示元数据当前的情况,历史情况未保存。因此元数据管理的解决方案需要依据当前应用场景来确定架构方案。
欢迎加入【数据行业交流群】社群,长按以下二维码加入专业微信群,获取
新的行业信息,商务合作加微信备注商务合作
往期历史热门文章:
基于DataOps的数据开发治理:实现数据流程的自动化和规范化